午夜性刺激在线观看免费,全免费A级毛片免费看无码,国产精品亚洲一区二区三区久久,亚洲精品无码久久久久,国产三区在线成人AV,亚洲乱码一区二区三区在线欧美,国产一区二区视频在线播放,久久亚洲精品无码观看不卡,精品九九人人做人人爱,少妇人妻无码精品视频app

廣告

GPU之后,AI算力加速找到新方向

GPU之后,AI算力加速找到新方向

種種跡象表明,得益于自身對神經(jīng)網(wǎng)絡(luò)計(jì)算進(jìn)行的專門優(yōu)化,在端側(cè)和邊緣側(cè)處理復(fù)雜神經(jīng)網(wǎng)絡(luò)算法時(shí)擁有的更高效率和更低能耗,神經(jīng)網(wǎng)絡(luò)處理器(NPU)正成為推動AI手機(jī)、AI PC和端側(cè)AI市場前行的強(qiáng)大動能,并有望開啟屬于自己的大規(guī)模商用時(shí)代。

什么是NPU?

NPU是一種專為實(shí)現(xiàn)以低功耗加速AI推理而打造的處理器,其架構(gòu)隨著新AI算法、模型和用例的發(fā)展不斷演進(jìn)。一個(gè)優(yōu)秀的、專用的定制化NPU設(shè)計(jì)必須要在性能、工號、效率、可編程性和面積之間進(jìn)行權(quán)衡取舍,才能夠?yàn)樘幚鞟I工作負(fù)載做出正確的選擇,與AI行業(yè)方向保持高度一致。3OHesmc

早在2015年,面向音頻和語音AI用例而設(shè)計(jì)的NPU就誕生了,這些用例基于簡單卷積神經(jīng)網(wǎng)絡(luò)(CNN)并且主要需要標(biāo)量和向量數(shù)學(xué)運(yùn)算。從2016年開始,拍照和視頻AI用例大受歡迎,出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等更復(fù)雜的全新模型。這些工作負(fù)載需要大量張量數(shù)學(xué)運(yùn)算,因此NPU增加了張量加速器和卷積加速,讓處理效率大幅提升。3OHesmc

到了2023年,大語言模型(LLM)一比如Llama 2-7B,和大視覺模型(LVM)一比如 StableDiffusion賦能的生成式AI使得典型模型的大小提升超過了一個(gè)數(shù)量級。除計(jì)算需求之外,還需要重點(diǎn)考慮內(nèi)存和系統(tǒng)設(shè)計(jì),通過減少內(nèi)存數(shù)據(jù)傳輸以提高性能和能效。未來預(yù)計(jì)將會出現(xiàn)對更大規(guī)模模型和多模態(tài)模型的需求。3OHesmc

AI PCNPU推上競爭新高地

2024年被普遍視為AI PC元年,根據(jù)Canalys預(yù)測,到2027年,AI PC出貨量將超過1.7億臺,其中近60%將部署在商用領(lǐng)域。為了順應(yīng)PC行業(yè)的發(fā)展潮流,并顯著提高端側(cè)AI能力,英特爾、AMD、高通等頭部芯片廠商也正努力將專用NPU集成到CPU中,相關(guān)產(chǎn)品及路線圖已經(jīng)得到公布。3OHesmc

盡管AI PC實(shí)際市場表現(xiàn)取決于生態(tài)系統(tǒng)的協(xié)作水平,但毫無疑問的是,集成了NPU的中央處理器將驅(qū)動新一輪AI PC的發(fā)展。與此同時(shí),如何在電腦處理器中發(fā)揮出NPU的最大功效,也成為了業(yè)內(nèi)熱議的話題。3OHesmc

2023年12月,AMD率先發(fā)布銳龍8040系列處理器,其最核心的變化之一就是新增了AI計(jì)算單元。根據(jù)AMD的說法,得益于NPU的加入,銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS,性能提升幅度達(dá)到了60%。這讓銳龍8040系列處理器在LLM等模型性能更加突出,例如Llama 2大語言模型性能提升40%,視覺模型提升40%。3OHesmc

一周之后,英特爾新一代酷睿Ultra移動處理器正式發(fā)布,這是其40年來第一個(gè)內(nèi)建NPU的處理器,用于在PC上帶來高能效的AI加速和本地推理體驗(yàn),被業(yè)界視作英特爾客戶端處理器路線圖的轉(zhuǎn)折點(diǎn)。英特爾方面將NPU與CPU、GPU共同作為AI PC的三個(gè)底層算力引擎,預(yù)計(jì)在2024年,將有230多款機(jī)型搭載酷睿Ultra。3OHesmc

3OHesmc

來自Trendforce的消息稱,微軟計(jì)劃在Windows12中為AI PC設(shè)置最低門檻,需要至少40TOPS算力和16GB內(nèi)存。也就是說,PC芯片算力跨越40TOPS門檻將成為首要目標(biāo),這也將進(jìn)一步推進(jìn)NPU的升級方向,比如:提升算力、提高內(nèi)存、降低功耗,芯片持續(xù)進(jìn)行架構(gòu)優(yōu)化、異構(gòu)計(jì)算優(yōu)化和內(nèi)存升級。3OHesmc

再來看一下高通的思路。高通是不打算從一開始就只依賴NPU實(shí)現(xiàn)移動設(shè)備AI體驗(yàn)的,而是將Hexagon NPU、Adreno GPU、Kryo或Oryon CPU、傳感器中樞和內(nèi)存子系統(tǒng)“打包”,組成“高通AI引擎”。這意味著高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計(jì)和快速創(chuàng)新。通過定制設(shè)計(jì)NPU并控制指令集架構(gòu)(ISA),高通能夠快速進(jìn)行設(shè)計(jì)演進(jìn)和擴(kuò)展,以解決瓶頸問題并優(yōu)化性能。目前,高通NPU從2015年初次被集成到SoC至今,在9年左右的時(shí)間里其實(shí)已經(jīng)更迭了四代不同的基礎(chǔ)架構(gòu)。3OHesmc

3OHesmc

本土NPU企業(yè)持續(xù)發(fā)力

在國內(nèi)廠商當(dāng)中,2017年,華為最先將NPU處理器集成到手機(jī)CPU中,使得CPU單位時(shí)間計(jì)算的數(shù)據(jù)量和單位功耗下的AI算力得到顯著提升,讓業(yè)內(nèi)看到了NPU應(yīng)用于終端設(shè)備的潛力。OPPO曾經(jīng)的自研NPU馬里亞納X,在拍照、拍視頻等大數(shù)據(jù)流場景下實(shí)現(xiàn)了更好的運(yùn)算效率,拉開了高端智能手機(jī)的體驗(yàn)差距。3OHesmc

2018年11月,作為安謀科技成立后第一款正式對外發(fā)布的本土研發(fā)IP產(chǎn)品,“周易”Z1 NPU在烏鎮(zhèn)舉辦的第五屆世界互聯(lián)網(wǎng)大會上公開亮相;兩年后的2020年10月,能夠在單顆SoC中實(shí)現(xiàn)128TOPS強(qiáng)大算力的“周易”Z2 NPU面世;2023年推出的“周易”X2 NPU則主要面向智能汽車產(chǎn)業(yè)和邊緣計(jì)算,支持多核Cluster,以及大模型基礎(chǔ)架構(gòu)Transformer,可提供最高320TOPS的算力。商業(yè)化落地方面,目前“周易”NPU已和全志科技、芯擎科技、芯馳科技等多家本土芯片廠商實(shí)現(xiàn)了合作。3OHesmc

3OHesmc

“周易”X2 NPU主要功能升級(來源:安謀科技)3OHesmc

另一家企業(yè)芯原則在近日宣布,集成其NPU IP的AI芯片在全球范圍內(nèi)出貨超過1億顆,已被72家客戶用于128款A(yù)I芯片中,用于物聯(lián)網(wǎng)、可穿戴設(shè)備、智慧家居、安防監(jiān)控、汽車電子等10個(gè)市場領(lǐng)域。其最新推出的VIP9000系列NPU IP結(jié)合芯原的Acuity工具包支持含PyTorch、ONNX和TensorFlow在內(nèi)的所有主流框架。此外,它還具備4位量化和壓縮技術(shù),以解決帶寬限制問題,便于在嵌入式設(shè)備上部署生成式人工智能和大型語言模型算法,如Stable Diffusion和Llama 2。3OHesmc

作為人工智能視覺感知芯片研發(fā)及基礎(chǔ)算力平臺公司,愛芯元智在2023年正式推出的第三代高算力、高能效比的SoC芯片AX650N,也為行業(yè)探索Transformer在端側(cè)、邊緣側(cè)落地方面做出了有益的嘗試。實(shí)測數(shù)據(jù)顯示,目前大眾普遍采用的Transformer網(wǎng)絡(luò)SwinT,在愛芯元智AX650N平臺上獲得了361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的極易部署能力。3OHesmc

生成式AI與多樣化處理器

與我們之前談?wù)摰腁I不同的是,生成式AI用例需求在有著多樣化要求和計(jì)算需求的垂直領(lǐng)域不斷增加。高通在《通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI》的白皮書中,將這些用例分為三類:3OHesmc

1. 按需型用例由用戶觸發(fā),需要立即響應(yīng),包括照片/視頻拍攝、圖像生成/編輯、代碼生成、錄音轉(zhuǎn)錄/摘要和文本(電子郵件、文檔等)創(chuàng)作/摘要。這包括用戶用手機(jī)輸入文字創(chuàng)作自定義圖像、在PC上生成會議摘要,或在開車時(shí)用語音查詢最近的加油站。3OHesmc

2. 持續(xù)型用例運(yùn)行時(shí)間較長,包括語音識別、游戲和視頻的超級分辨率、視頻通話的音頻/視頻處理以及實(shí)時(shí)翻譯。這包括用戶在海外出差時(shí)使用手機(jī)作為實(shí)時(shí)對話翻譯器,以及在PC上玩游戲時(shí)逐幀運(yùn)行超級分辨率。3OHesmc

3. 泛在型用例在后臺持續(xù)運(yùn)行,包括始終開啟的預(yù)測性AI助手、基于情境感知的AI 個(gè)性化和高級文本自動填充。例如手機(jī)可以根據(jù)用戶的對話內(nèi)容自動建議與同事的會議、PC端的學(xué)習(xí)輔導(dǎo)助手則能夠根據(jù)用戶的答題情況實(shí)時(shí)調(diào)整學(xué)習(xí)資料。3OHesmc

白皮書指出,這些AI用例面臨兩大共同的關(guān)鍵挑戰(zhàn):第一,在功耗和散熱受限的終端上使用通用CPU和GPU服務(wù)平臺的不同需求,難以滿足這些AI用例嚴(yán)苛且多樣化的計(jì)算需求;第二,這些AI用例在不斷演進(jìn),在功能完全固定的硬件上部署這些用例不切實(shí)際。3OHesmc

例如CPU和GPU是通用處理器,它們?yōu)殪`活性而設(shè)計(jì),非常易于編程,前者擅長順序控制和即時(shí)性,后者適合并行數(shù)據(jù)流處理。但在運(yùn)行操作系統(tǒng)、游戲和其他應(yīng)用時(shí),會隨時(shí)限制他們運(yùn)行AI工作負(fù)載的可用容量;NPU是以AI為中心定制設(shè)計(jì)的,擅長標(biāo)量、向量和張量數(shù)學(xué)運(yùn)算,雖然易編程性有所降低,但以此換得了更高的峰值性能、能效和面積效率,從而能夠運(yùn)行機(jī)器學(xué)習(xí)所需的大量乘法、加法和其他運(yùn)算。3OHesmc

因此,只有支持處理多樣性的異構(gòu)計(jì)算架構(gòu),才能夠發(fā)揮每個(gè)處理器的優(yōu)勢。正如在工具箱中選擇合適的工具一樣,選擇合適的處理器取決于諸多因素,將增強(qiáng)生成式AI體驗(yàn)。換句話說,就是通過使用合適的處理器,異構(gòu)計(jì)算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,以最大化發(fā)揮生成式AI終端用戶體驗(yàn)。3OHesmc

端側(cè)AI,千帆競渡

如前文所述,無論是國際還是國內(nèi)企業(yè),盡管他們在NPU的技術(shù)和路線選擇上各有側(cè)重,但端側(cè)AI是顯而易見的競爭大市場和新市場,無論是AI手機(jī)、XR、AI PC等消費(fèi)類產(chǎn)品,還是物聯(lián)網(wǎng)、智慧家居、汽車電子領(lǐng)域,都是如此。3OHesmc

究其原因,還是自2023年起,大模型參數(shù)量出現(xiàn)顯著分化,輕量化模型的出現(xiàn)逐步推動AI向端側(cè)場景落地。以谷歌發(fā)布的開源輕量化大模型Gemma為例,該模型與多模態(tài)大模型Gemini采用相同的研究和技術(shù)構(gòu)建,有2B和7B兩個(gè)版本,可以直接在筆記本和臺式機(jī)部署。 3OHesmc

近幾年大有取代CNN之勢的Transformer也值得多說幾句。由于它可以獲取全局特征,有一定的知識遷移性,能夠很好地適應(yīng)各種場景,不僅在COCO榜單上處于霸榜狀態(tài),很多以CNN為主的框架也已經(jīng)切換到了Transformer。目前來看,Transformer大模型在云端主要還是通過GPU部署,在邊緣側(cè)、端側(cè)硬件支撐方面,則更多依賴NPU實(shí)現(xiàn)對神經(jīng)網(wǎng)絡(luò)的加速。3OHesmc

這倒不是指CPU不能運(yùn)行Transformer模型,只是它的運(yùn)行速度無法滿足實(shí)際應(yīng)用落地需求。另一方面,盡管CNN和Transformer都屬于神經(jīng)網(wǎng)絡(luò),但Transformer的計(jì)算訪存比比CNN低,精度和靈活度高,而此前市面上的一些NPU主要針對CNN網(wǎng)絡(luò)做了一些過擬合的設(shè)計(jì),導(dǎo)致在部署Transformer網(wǎng)絡(luò)時(shí)遇到了功耗、效率等諸多問題,現(xiàn)在需要找到合適的新算力平臺,并在算法側(cè)找到能降低大參數(shù)模型帶寬的新途徑。3OHesmc

此外,輕量化AI大模型面世之后,場景應(yīng)用的AI智能邊際成本會大幅降低,因?yàn)樗惶枰贋檫@些長尾的場景做專門的適配,預(yù)訓(xùn)練的大模型憑借“足夠強(qiáng)的學(xué)習(xí)和推理能力”、“足夠?qū)挼闹R領(lǐng)域”,一經(jīng)部署就能達(dá)到比較好的效果,從而推動AI在端側(cè)和邊緣側(cè)更大范圍內(nèi)的普及和提升。3OHesmc

結(jié)語

多模態(tài)AI的興起,使得AI系統(tǒng)能夠更全面地理解和處理現(xiàn)實(shí)世界中的復(fù)雜信息。除傳統(tǒng)的語言以及圖像間的交互作用,其結(jié)合聲音、觸覺以及動作等多維度信息進(jìn)行深度學(xué)習(xí),從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。這也是AI模型走向多模態(tài)的必然因素:跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認(rèn)知能力的模擬。因此,端側(cè)AI越“卷”,越代表著NPU將快速迎來市場拐點(diǎn)。3OHesmc

得益于在端側(cè)和邊緣側(cè)處理復(fù)雜神經(jīng)網(wǎng)絡(luò)算法時(shí)擁有的更高效率和更低能耗,神經(jīng)網(wǎng)絡(luò)處理器(NPU)正成為推動AI手機(jī)、AI PC和端側(cè)AI市場前行的強(qiáng)大動能,并有望開啟屬于自己的大規(guī)模商用時(shí)代。3月28-29日,由Aspencore舉辦的國際集成電路展覽會暨研討會(IIC Shanghai)將在上海召開。在與IIC 2024同期舉辦的“GPU/AI芯片與高性能計(jì)算應(yīng)用論壇”上,行業(yè)專家將與我們共同探討AI產(chǎn)業(yè)的最新動向及技術(shù)趨勢,點(diǎn)擊這里參考詳情并報(bào)名參會。3OHesmc

3OHesmc

責(zé)編:Elaine
本文為國際電子商情原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。請尊重知識產(chǎn)權(quán),違者本司保留追究責(zé)任的權(quán)利。
邵樂峰
ASPENCORE中國區(qū)首席分析師。
  • 微信掃一掃,一鍵轉(zhuǎn)發(fā)

  • 關(guān)注“國際電子商情” 微信公眾號

近期熱點(diǎn)

廣告
廣告

EE直播間

更多>>

在線研討會

更多>>
国产免费无码午夜福利| 中文字幕一级片无码高清| 免费大片黄在线观看视频动漫真人3d日韩国产| 国产亚洲一区二区手机在线观看| 在线不卡日本Ⅴ一区二区| AV无码片一区二区三区| 欧美日韩内地人妻| 亚洲AV无码专区亚洲AV不卡| 中文国产成人精品久久APP| 黄片在线免费观看一区二区三区| 精品日本亚洲一区二区三区| 亚洲日产乱码一二三区别| 亚洲国产精品无码一线岛国AV| 免费一级大片亚洲精品视频网| 岛国无码av不卡一区二区| 国产无码高清视频不卡| 欧美日韩欧美在线免费观看| 成人精品一区二区三区电影黑人| 99精品国产在热久久无毒不卡| 236宅宅理论片免费| 一级片在线观看免费| 亚洲一区二区三区无码视频| 亚洲av成人一区二区三区| 亚洲欧美日韩国产成人一区| 中文字幕色AV一区二区三区| 国产福利113精品一区二区三区| 午夜a级理论片在线播放可米| 日韩精品免费在线观看视频| 国产精品高清一区二区三区| 亚洲日韩中文字幕在线播放| 久久久久久久久久国产精品免费| 国产精品福利一区二区久久| 成人国内精品视频在线观看| 人妻综合专区第一页| 日日摸夜夜添夜夜添高潮喷水| 亚洲AV成人无码国产一区二区| 成人无码一区二区三区网站| 一本久久精品一区二区| 中文字幕乱偷在线观看| 久久国产亚洲日韩一本| 国产美女精品人人做人人爽|